智能论文笔记

Polynomial Optimization: Enhancing RLT relaxations with Conic Constraints

Brais González-Rodríguez , Raúl Alvite-Pazó , Samuel Alvite-Pazó , Bissan Ghaddar , Julio González-Díaz

分类：机器学习

2022-08-11

最近，Conic优化已成为设计可用于非凸多项式优化问题的可拖动和保证算法的强大工具。一方面，易处理性对于有效解决大规模问题至关重要，另一方面，需要强大的界限来确保高质量的解决方案。在这项研究中，我们通过添加基于线性，二阶锥体和半决赛编程的九种不同类型的约束来研究多项式优化问题的RLT松弛，以解决最佳实例，以实现良好的测试集的实例多项式优化问题。我们描述了如何设计这些圆锥约束及其性能相对于彼此以及标准RLT松弛的设计。我们的第一个发现是，非线性约束的不同变体（二阶锥体和半芬矿）是$ 50 \％$ $ $ $ 50 $ $的最佳性能。此外，我们提出了一种机器学习方法来决定给定实例最合适的约束。计算结果表明，机器学习方法显着优于九种单独方法中的每一种。

translated by 谷歌翻译

REST: REtrieve & Self-Train for generative action recognition

Adrian Bulat , Enrique Sanchez , Brais Martinez , Georgios Tzimiropoulos

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-29

这项工作是在培训生成动作/视频识别模型上，其输出是描述视频的自由形式的特定动作标题（而不是动作类标签）。生成的方法具有实用的优势，例如生产更细粒度和人类可读的产出，并且自然而然地是开放的。为此，我们提议适应视频/动作识别的预先训练的生成视觉和语言（V＆L）基础模型。据我们所知，最近有几次尝试适应了用对比度学习（例如剪辑）训练的V＆L模型（例如剪辑），但据我们所知，我们提出了第一种设定实现这一目标的方法来实现生成模型的方法。我们首先表明，生成模型的直接微调生产具有严重过度拟合的动作类别。为了减轻这一点，我们介绍了REST，这是一个由两个关键组成部分组成的培训框架：一种无监督的方法，用于通过伪捕获生成和自我训练，将生成模型适应动作/视频，即不使用任何动作特定的标签；（b）基于剪辑的检索方法，用于为每个视频发现一套伪装的伪扣，以训练该模型。重要的是，我们表明这两个组件对于获得高精度都是必要的。我们评估零拍动识别的问题的休息，我们表明，与基于对比的学习方法相比，我们的方法非常有竞争力。代码将可用。

translated by 谷歌翻译

Efficient Attention-free Video Shift Transformers

Adrian Bulat , Brais Martinez , Georgios Tzimiropoulos

分类：计算机视觉 | 机器学习

2022-08-23

本文解决了有效的视频识别问题。在这一领域，视频变压器最近在效率（Top-1精度与Flops）频谱中占据了主导地位。同时，在图像域中进行了一些尝试，这些尝试挑战了变压器体系结构中自我发挥操作的必要性，主张使用更简单的方法来进行令牌混合。但是，对于视频识别的情况，尚无结果，在这种情况下，自我发项操作员对效率的影响（与图像的情况相比）明显更高。为了解决这一差距，在本文中，我们做出以下贡献：（a）我们基于移位操作员，构成的仿射偏移块构建了一个高效\＆精确的无注意块，专门为尽可能近的近似而设计变压器层的MHSA块中的操作。基于我们的仿射转移块，我们构建了我们的仿射转移变压器，并表明它已经超过了所有现有的基于移位/MLP的架构进行Imagenet分类。（b）我们将公式扩展到视频域中，以构建视频播客变压器（vast），这是第一个纯粹无注意的基于偏移的视频变压器。（c）我们表明，对于最流行的动作识别基准，对于具有低计算和内存足迹的模型的情况，大量的最新变压器在最流行的动作识别基准上表现出色。代码将可用。

translated by 谷歌翻译

HTML版本

iBoot: Image-bootstrapped Self-Supervised Video Representation Learning

Fatemeh Saleh , Fuwen Tan , Adrian Bulat , Georgios Tzimiropoulos , Brais Martinez

分类：计算机视觉 | 机器学习

2022-06-16

通过自学学习的视觉表示是一项极具挑战性的任务，因为网络需要在没有监督提供的主动指导的情况下筛选出相关模式。这是通过大量数据增强，大规模数据集和过量量的计算来实现的。视频自我监督学习（SSL）面临着额外的挑战：视频数据集通常不如图像数据集那么大，计算是一个数量级，并且优化器所必须通过的伪造模式数量乘以几倍。因此，直接从视频数据中学习自我监督的表示可能会导致次优性能。为了解决这个问题，我们建议在视频表示学习框架中利用一个以自我或语言监督为基础的强大模型，并在不依赖视频标记的数据的情况下学习强大的空间和时间信息。为此，我们修改了典型的基于视频的SSL设计和目标，以鼓励视频编码器\ textit {subsume}基于图像模型的语义内容，该模型在通用域上训练。所提出的算法被证明可以更有效地学习（即在较小的时期和较小的批次中），并在单模式SSL方法中对标准下游任务进行了新的最新性能。

translated by 谷歌翻译

EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers

Junting Pan , Adrian Bulat , Fuwen Tan , Xiatian Zhu , Lukasz Dudziak , Hongsheng Li , Georgios Tzimiropoulos , Brais Martinez

分类：计算机视觉

2022-05-06

基于自我注意力的模型，例如视觉变压器（VIT），已经成为计算机视觉中卷积神经网络（CNN）的一种非常有竞争力的建筑。尽管越来越高的变体具有更高的识别精度，但由于自我注意力的二次复杂性，现有的VIT通常在计算和模型大小中要求。尽管已重新引入了最近的CNN的几种成功设计选择（例如，卷积和分层多阶段结构）已重新引入最近的VIT，但它们仍然不足以满足移动设备的有限资源要求。这激发了最近根据最先进的Mobilenet-V2开发光线的尝试，但仍然留下了性能差距。在这项工作中，在这个研究不足的方向上进一步推动了Edgevits，这是一个新的轻巧vits家族，这首先使基于注意力的视觉模型能够与最佳轻巧的CNN竞争，这准确性和设备效率。这是通过基于自我注意力和卷积的最佳整合而引入高度成本效益的本地 - 全球局（LGL）信息交换瓶颈来实现的。对于设备青年的评估，我们不再依赖诸如拖船或参数的不准确代理，而是采用一种实用的方法来直接专注于设备延迟，以及首次首次提供能源效率。具体而言，我们表明，当考虑准确性的延迟和准确性 - 能量折衷时，我们的模型是帕累托最佳的，在几乎所有情况下都严格占据了其他VIT并与最有效的CNN竞争的严格优势。代码可从https://github.com/saic-fi/edgevit获得。

translated by 谷歌翻译